在语言领域取得成功之后,自我发挥机制(变压器)在视觉领域采用并取得了巨大的成功。此外,作为另一个流中的多层感知器(MLP),也在视觉域中探索。除传统CNN以外,这些架构最近引起了人们的关注,并提出了许多方法。作为将参数效率和性能与图像识别中的局部性和层次结合在一起的一种,我们提出了将两个流合并的GSWIN。Swin Transformer和(多头)GMLP。我们表明,与具有较小模型大小的SWIN Transformer相比,GSWIN可以在三个视觉任务,图像分类,对象检测和语义分割方面实现更好的准确性。
translated by 谷歌翻译
最近的去噪扩散概率模型(DDPMS)最近一直引起关注作为包括GaN,VAE等的深层神经生成模型的新挑战者,但是,DDPMS的缺点是它们通常需要在合成过程中需要大量的细化步骤。为了解决这个问题,本文提出了一种基于用于随机微分方程(SDES)的二阶数值方案的新DDPM采样器,而传统采样器基于一阶数值方案。通常,计算高阶数值方案所需的衍生物并不容易。但是,在DDPM的情况下,作者称之为“理想衍生替代”的诀窍,这种困难是缓解的。新导出的高阶采样器应用于图像和语音生成任务,并且实验地观察到所提出的采样器可以以相对较少数量的细化步骤合成合理的图像和音频信号。
translated by 谷歌翻译
变异贝叶斯(VB)推理算法被广泛用于估计生成统计模型中的参数和未观察到的隐藏变量。该算法是受计算物理学中使用的变异方法的启发的 - 即使使用经典技术(例如确定性退火(DA)),也可以轻松地卡在本地最小值中。我们研究了基于非传统量子退火方法的变异贝叶斯(VB)推理算法 - 称为量子退火变异贝叶斯(QAVB)推断 - 并表明QAVB比其经典对应物具有量子优势。特别是,我们表明这种更好的性能源于量子力学的关键概念:(i)量子系统的哈密顿量的基态 - 定义从给定的变分贝叶斯(VB)问题定义 - 对应于最佳解决方案对于在非常低的温度下的变异自由能的最小化问题; (ii)通过与量子退火过程平行的技术可以实现这种基态; (iii)从这种基态开始,可以通过将热浴温度提高到统一性来实现VB问题的最佳解决方案,从而避免在基于古典物理学的VB算法中观察到的自发对称性破坏引入的局部最小值。我们还显示,可以使用$ \ lceil \ log k \ rceil $ Qubits和$ \ Mathcal {O}(k)$操作每个步骤来实现QAVB的更新方程。因此,QAVB可以匹配现有VB算法的时间复杂性,同时提供更高的性能。
translated by 谷歌翻译
已广泛研究了确定量子状态(例如保真度度量)相似性的有效度量。在本文中,我们解决了可以定义可以\ textit {有效估计}的量子操作的相似性度量的问题。给定了两个量子操作,$ u_1 $和$ u_2 $,以其电路表格表示,我们首先开发一个量子采样电路,以估算其差异的归一化schatten 2-norm($ \ | | | | | | U_1-U_2 \ | _ {s_2} $)使用精确$ \ epsilon $,仅使用一个干净的量子和一个经典的随机变量。我们证明了一个poly $(\ frac {1} {\ epsilon})$ umper bound在样品复杂性上,该界限与量子系统的大小无关。然后,我们证明这种相似性度量与使用量子状态的常规保真度度量($ f $)直接相关。 u_1-u_2 \ | _ {s_2} $足够小(例如$ \ leq \ frac {\ epsilon} {1+ \ sqrt {2(1/\ delta -1)} $)处理相同的随机和均匀选择的纯状态,$ | \ psi \ rangle $,如有需要($ f({{u} _1 | \ psi \ rangle,{u} _2 | \ psi \ wangle)\ geq 1 - \ epsilon $),概率超过$ 1- \ delta $。我们为量子电路学习任务提供了这种有效的相似性度量估计框架的示例应用,例如找到给定统一操作的平方根。
translated by 谷歌翻译
我们提出了一个端到端的移情对话言语综合(DSS)模型,该模型既考虑对话历史的语言和韵律背景。同理心是人类积极尝试进入对话中的对话者,而同理心DSS是在口语对话系统中实施此行为的技术。我们的模型以语言和韵律特征的历史为条件,以预测适当的对话环境。因此,可以将其视为传统基于语言 - 基于语言的对话历史建模的扩展。为了有效地培训善解人意的DSS模型,我们研究1)通过大型语音语料库预审预测的一个自我监督的学习模型,2)一种风格引导的培训,使用韵律嵌入对话上下文嵌入的当前话语,3)对结合文本和语音方式的跨模式的关注,以及4)句子的嵌入,以实现细粒度的韵律建模,而不是通过话语建模。评估结果表明,1)仅考虑对话历史的韵律环境并不能提高善解人意的DSS中的语音质量和2)引入样式引导的培训和句子嵌入模型的言语质量比传统方法更高。
translated by 谷歌翻译
通过语音转换(VC)的数据增强已成功应用于仅可用于目标扬声器的中性数据时,已成功地应用于低资源表达文本到语音(TTS)。尽管VC的质量对于这种方法至关重要,但学习稳定的VC模型是一项挑战,因为在低资源场景中的数据量受到限制,并且高度表达的语音具有很大的声学变化。为了解决这个问题,我们提出了一种新型的数据增强方法,该方法结合了变化和VC技术。由于换挡数据的增强功能可以覆盖各种音高动态,因此即使只有目标扬声器中性数据的1000个话语,它也可以极大地稳定VC和TTS模型的训练。主观测试结果表明,与常规方法相比,具有拟议方法的基于快速2的情绪TTS系统改善了自然性和情绪相似性。
translated by 谷歌翻译
我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译
继承是一种确定性算法,用于生成可以被视为满足输入时刻条件的随机样本的数据点。该算法基于高维动力系统的复杂行为,并由统计推断的最大熵原理的启发。在本文中,我们提出了埃尔特联算法的延伸,称为熵放牧,它产生一系列分布而不是点。熵放映是从最大熵原理获得的目标函数的优化。使用所提出的熵放牧算法作为框架,我们讨论了勃起与最大熵原理之间的更近的联系。具体而言,我们将原始的掠过算法解释为熵牧群的易缩放版,其理想的输出分布在数学上表示。我们进一步讨论了掠过算法的复杂行为如何有助于优化。我们认为,所提出的熵扩建算法扩展了爬行到概率建模的应用。与原来的放牧相比,熵放牧可以产生平滑的分布,使得两个有效的概率密度计算和样本产生都变得可能。为了证明这些研究中这些论点的可行性,进行了数值实验,包括合成和实际数据的与其他常规方法的比较。
translated by 谷歌翻译
我们实现了接触的灵活物体操作,这很难单独使用视力控制。在解压缩任务中,我们选择作为验证任务,夹具抓住拉动器,它隐藏袋子状态,例如其背后的变形的方向和量,使得仅通过视觉获取信息来执行任务。此外,柔性织物袋状态在操作期间不断变化,因此机器人需要动态地响应变化。然而,所有袋子状态的适当机器人行为难以提前准备。为了解决这个问题,我们开发了一种模型,可以通过具有触觉的视觉的实时预测来执行接触的灵活性对象操纵。我们介绍了一种基于点的注意机制,用于提取图像特征,Softmax转换来提取预测运动,以及用于提取触觉特征的卷积神经网络。使用真正的机器人手臂的实验结果表明,我们的方法可以实现响应袋子变形的运动,同时减少拉链上的负荷。此外,与单独的视觉相比,使用触觉从56.7%提高到93.3%,展示了我们方法的有效性和高性能。
translated by 谷歌翻译
本研究报告了一种新颖的硬件友好的模块化架构,用于实现一维卷积神经网络(1D-CNN)数字预失真(DPD)技术,实时线性化RF功率放大器(PA)。我们设计的模块化性质可以实现DPD系统调整对于可变资源和时序约束。我们还提供了一种共模架构,可以使用实际功率放大器硬件循环验证DPD性能。具有100 MHz信号的实验结果表明,所提出的1D-CNN获得优越与实时DPD应用的其他神经网络架构相比,性能。
translated by 谷歌翻译